Restructuration automatique de documents dans les corpus semi-structurés hétérogènes

نویسندگان

Guillaume Wisniewski

Ludovic Denoyer

Patrick Gallinari

چکیده

Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consiste à transformer des documents semistructurés issus de diverses sources dans un schéma de médiation connu. Nous proposons un cadre statistique général à la problématique de la restructuration de documents et détaillons une instance d’un modèle stochastique de documents structurés appliquée à cette problématique. Nous détaillons enfin un ensemble d’expériences effectuées sur les documents du corpus INEX afin de mesurer la capacité de notre modèle.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML

RÉSUMÉ. Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documentaire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les do...

متن کامل

Apprentissage actif pour l'annotation de documents

RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....

متن کامل

Recherche approchée d'information dans une base de documents semi-structurés

RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...

متن کامل

Intégration de sources hétérogènes par matching semi-automatique de schémas XML étendus

RÉSUMÉ. Lors de l’intégration de sources de données hétérogènes, une des tâches les plus importantes est la transformation (semi-)automatique de ces sources par une phase de recherche de correspondances appelée schema matching. Le but de cet article est de proposer une solution lors de la phase de matching entre des schémas XML étendus appelés EXS (Enhanced XML Schemas). L’ensemble des schémas ...

متن کامل

Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques

RÉSUMÉ. Cet article s’intéresse à l’indexation des données ayant une sémantique pauvre dans des documents structurés. Le but est d’exploiter le contenu des données symboliques avoisinantes afin d’en extraire les fragments adéquats pour compléter l’indexation de la donnée non symbolique. Cette approche a été abordée dans le cadre concret d’une application dans un contexte professionnel : indexer...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2005

Restructuration automatique de documents dans les corpus semi-structurés hétérogènes

نویسندگان

چکیده

منابع مشابه

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML

Apprentissage actif pour l'annotation de documents

Recherche approchée d'information dans une base de documents semi-structurés

Intégration de sources hétérogènes par matching semi-automatique de schémas XML étendus

Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques

عنوان ژورنال:

اشتراک گذاری